베이지안 확률론에서는 사건(event)을 실제로 발생한 표본이 포함되어 있을 수 있는 후보 집단으로 본다. 따라서 사건이란 "실제로 발생한 표본이 이 사건(부분 집합) 안에 있다"라는 주장 혹은 가설인 셈이다.
또한 그 후보 집단이 정말 실제로 발생한 표본을 포함할 가능성을 즉 그 가설이 진실일 가능성을 사건의 확률이라고 한다.
베이지안 확률론의 장점은 추가적인 정보가 발생하였을 때 이 추가 정보를 사용하여 기존에 가지고 있던 확률 즉, 어떤 가설에 대한 가능성을 더 올바른 방향으로 수정할 수 있다는 점이다.
추가적인 정보는 보통 사건(event)의 형태로 발생한다. 즉 "어떤 사건이 발생했다"는 말은 "진짜 표본이 포함된 새로운 후보 집합을 알게 되었다"는 의미이다.
예를 들어 살인 사건이 발생하였다고 가정하자. 이 사건을 담당한 형사는 전체 용의자 목록을 가지고 있으며 베이지안 확률론 관점에서 이 용의자 목록이 바로 표본 공간(sample space)가 된다. 현재 표본 공간은 20명의 용의자로 구성되어 있으며 이 중 남자가 12 명, 여자가 8 명이다.
담당 형사는 남자가 범인라고 생각한다. 이 때 "범인이 남자"라는 것은 확률론적 관점에서 남성인 용의자(표본)이 들어있는 표본 공간의 부분집합 즉, 사건(event)이 된다. 이를 사건 $A$ 라고 하자 따라서 형사가 관심을 가지는 것은 "범인이 남자"라는 사건 $A$ 의 확률 $P(A)$ 이다.
아무런 추가 정보가 없다면 범인이 남자일 확률 $P(A)$는 다음과 같다.
$$ P(A) = \dfrac{12}{12 + 8} = \dfrac{12}{20} = 0.6 $$이 때 새로운 사건(event) $B$ 가 발생하였다고 하자. 바로 범인의 머리카락이 발견된 것이다! 발견된 범인의 머리카락에서 범인은 머리가 길다라는 사실을 알게되었다.
이 새로운 사건(event) $B$ 은 확률론적으로는 진짜 범인이 포함된 새로운 용의자 목록, 즉 머리카락이 긴 사람의 목록이라는 표본 공간의 새로운 부분 집합을 의미한다.
현재 표본 공간 즉, 전체 용의자 목록에는 머리가 긴 사람이 10 명, 머리가 짧은 사람이 10 명이 있다. 즉 사건 $B$에 대한 확률 $P(B)$는 다음과 같다.
$$ P(B) = \dfrac{10}{10 + 10} = \dfrac{10}{20} = 0.5 $$베이지안 확률론은 두 사건 $A$와 $B$의 관계를 알고 있다면 사건 $B$가 발생하였다는 사실로 부터 기존에 알고 있는 사건 $A$에 대한 확률 $P(A)$를 좀 더 정확한 확률로 바꿀 수 있는 방법을 알려준다.
이 때 우리에게 필요한 두 사건 $A$와 $B$의 관계는 사건 $A$와 $B$가 동시에 발생할 확률이다. 이를 결합 확률(joint probability)이라고 부르며 다음과 같이 표기한다.
$$ P(A \cap B) \text{ or } P(A, B) $$또한 $B$가 일어남으로써 그 값이 바뀐, 사건 $A$에 대한 확률을 사건 $B$에 대한 사건 $A$의 조건부 확률(conditional probability)고 하며 다음과 같이 표기한다.
$$ P(A | B) $$조건부 확률은 다음과 같이 계산된다.
$$ P(A|B) = \dfrac{P(A,B)}{P(B)} $$사건 $A$와 사건 $B$의 결합 확률의 값 $P(A,B)$은 기존의 사건 $A$의 확률 $P(A)$나 사건 $B$의 확률 $P(B)$와는 전혀 무관한 별계의 정보이다. 즉, 추가로 주어지지 않으면 안되는 정보인 것이다.
앞서 예를 들었던 범인 찾기의 경우에도 이미 주어진 정보 $P(A)$, $P(B)$와 관계없이 $P(A,B)$는 여러 가지 경우가 있을 수 있다.
한 예를 들어 10명의 남자 중 머리가 긴 사람이 다음과 같이 3명일 수도 있고
범인이 머리가 길다: $P(B)=0.5$ | 범인이 머리가 길지 않다 | 계 | |
범인이 남자다: $P(A)=0.6$ | 3명 $\;\;\;P(A,B) = \dfrac{3}{20}$ | 9명 | 12명 |
범인이 여자다 | 7명 | 1명 | 8명 |
계 | 10명 | 10명 |
또 다른 경우에는 10명의 남자 중 머리가 긴 사람이 다음과 같이 6명일 수도 있다.
범인이 머리가 길다: $P(B)=0.5$ | 범인이 머리가 길지 않다 | 계 | |
범인이 남자다: $P(A)=0.6$ | 6명: $\;\;\;P(A,B) = \dfrac{6}{20}$ | 6명 | 12명 |
범인이 여자다 | 4명 | 4명 | 8명 |
계 | 10명 | 10명 |
이 두가지 경우에 대해 조건부 확률을 구해본다.
만약 머리가 긴 남자가 3명이라면
$$ P(A|B) = \dfrac{P(A, B)}{P(B)} = \dfrac{3/20}{10/20} = \dfrac{3}{10} $$이 된다. 원래 사건 $A$의 확률 $P(A)$가 0.6 즉 60% 였으므로 범인이 머리카락이 길다는 정보로 인해 남자가 범인일 확률은 절반으로 뚝 떨어졌다.
만약 머리가 긴 남자가 6명이라면
$$ P(A|B) = \dfrac{P(A, B)}{P(B)} = \dfrac{6/20}{10/20} = \dfrac{6}{10} $$이 된다.
만약 사건 $A$와 사건 $B$의 결합 확률의 값이 다음과 같은 관계가 성립하면 두 사건 $A$와 $B$는 서로 독립(independent)라고 한다.
$$ P(A,B) = P(A)P(B) $$독립인 경우 조건부 확률과 원래의 확률이 같아짐을 알 수 있다. 즉, $B$ 라는 사건이 발생하든 말든 사건 $A$ 에는 전혀 영향을 주지 않는 다는 것이다.
$$ P(A|B) = \dfrac{P(A,B)}{P(B)} = \dfrac{P(A)P(B)}{P(B)} = P(A) $$